#trayectorias de razonamiento

Sesgos distribucionales en post-entrenamiento: análisis markoviano

El post-entrenamiento con RLVR y ORM/PRM refuerza sesgos distribucionales. La exploración preserva trayectorias raras. Análisis markoviano.